È facile sperimentare, cercando informazioni con i motori di ricerca,
quante volte tale capacità venga meno. Questo dipende dal
fatto che gli spider, crawler o scooter (gli agenti software che
navigano su Internet alla ricerca di nuove pagine) cercano a testa
bassa, limitandosi a rintracciare le parole chiave in qualsiasi
documento appaia, anche il meno rilevante.
L'ordine in cui sono elencati i risultati, inoltre, è in
genere determinato solo dal numero di volte in cui la parola chiave
compare: un criterio solo quantitativo, inadeguato a soddisfare
la richiesta.

Se si usa Internet Explorer come browser la visualizzazione del
codice Html "dietro" la pagina si ottiene selezionando
la voce html del menù visualizza:
si aprirà una finestra di Blocco Note con il codice sorgente
contenuto. Se si usa Netscape Communicator il modo più
semplice è usare il comando ctrl-u.
Tuttavia i webmaster (coloro che creano e gestiscono i siti Web),
per rendere più facilmente intercettabili dai motori le
loro pagine, hanno ancora una carta da giocare, che vale la pena
di conoscere anche per meglio impostare le proprie ricerche. Consiste
nell'allegare dei "campi invisibili" a ciascuna pagina
Web. Niente di fantascientifico, poiché l'invisibilità
in realtà significa che il codice Html con cui una pagina
Web è scritta può contenere dei comandi (chiamati
meta tag) mediante i quali il webmaster specifica il titolo, il
sommario (o descrizione) e le parole chiave che meglio descrivono
la pagina in questione. I meta tag non sono visibili attraverso
i browser ma vengono letti e indicizzati dai motori di ricerca
(con l'eccezione di Excite, che indicizza solo il meta tag <title>,
titolo). Per vederli, si deve visualizzare il codice sorgente
della pagina utilizzando l'apposita voce di menù del proprio
browser.
I tag che danno una mano
Le pagine che contengono i meta tag sono più facilmente
reperibili e questo aiuta sia chi effettua le ricerche sia l'autore.
Spesso, infatti, le parole chiave che vengono utilizzare da chi
cerca per specificare l'argomento cui è interessato non
sono presenti in una pagina, che può tuttavia essere interessante. Trucco da spammer: inserire parole chiave nel testo che risultano
"invisibili" perché del colore dello sfondo.
Solo selezionandolo l'intera pagina vengono miracolosamente alla
luce e spesso, come in questo caso, solo in calce al testo.
I bravi programmatori Html sono in grado di inserire nei meta
tag termini ulteriori, non presenti nel testo, che aiutano a specificarne
meglio il contenuto. Usando un plurale anziché un singolare,
o un sinonimo, o un termine vago, si rischia infatti, in assenza
dei meta tag, di non trovare pagine preziose per la propria ricerca.
Si pensi a una ricerca delle foto di cestisti della Nba. Con la
ricerca "Nba and pictures" si rischia di non trovare
facilmente l'effigie del proprio giocatore preferito, perché
le pagine contenenti le foto non necessariamente contengono del
testo; e se lo contengono, non è detto che in esso si trovino
i termini "Nba" e "pictures". Il motore può
"accorgersi" che effettivamente la pagina in questione
contiene le foto desiderate solo se queste sono state opportunamente
dotate di meta tag adeguati. Inoltre, i meta tag sono molto utili
per la consultazione degli elenchi di risultati delle ricerche
perché sono usati dalla maggior parte dei motori (con l'eccezione
di Lycos ed Excite) per descrivere il contenuto delle pagine reperite.
In genere il testo del link corrisponde al meta tag <title>
e il sommario al meta tag <description> (descrizione). Se
la pagina non ha meta tag allegati, il motore inserisce nel link
e nel sommario le prime parole del testo della pagina, spesso
con il risultato di fornire un titolo e una descrizione incomprensibili.
L'altra faccia dei meta tag
Non sempre però i meta tag si rivelano utili. Anzi, a volte
la loro presenza può essere controproducente. Per esempio
quando le parole contenute nei meta tag non coincidono con quelle
contenute nelle pagine cui sono allegati, specie cercando termini
specifici o usando le parole chiave per ricerche "esplorative"
su di un argomento definito solo vagamente. Il vero problema legato
ai meta tag è però un altro. Sempre più spesso,
infatti, capita che facciano la loro comparsa fra i risultati
pagine che, oltre a non contemplare le parole chiave, non sembrano
avere alcun nesso con quanto cercato. Escluso che si sia verificato
un caso in cui il motore incappa in un termine dal significato
multiplo, o in cui la pagina ha cambiato contenuto dopo l'ultima
volta che lo spider ha visitato il sito, la "colpa"
è dei meta tag. O, per meglio dire, del loro uso spregiudicato.
Occhio agli spammer
Sono molti, infatti, i cosiddetti spammer, coloro che sfruttano
il Web a scopo di lucro senza rispettare la netiquette (il codice
deontologico cui ogni buon navigatore dovrebbe attenersi). Una
delle tecniche preferite dagli spammer consiste nell'attirare
in modo truffaldino visitatori a dei siti inserendo nei tag parole
chiave di uso comune, come "download", "software"
"free" e perfino "sex". Talvolta il trucco
consiste nell'inserire nei tag nomi di marchi famosi per attirare
traffico in siti di sottomarche. Un'altra variante vede l'inserimento
nei tag persino del nome del diretto concorrente.
Evidentemente, questo trucco funziona solo con i motori di ricerca
che utilizzano i meta tag. Excite non li indicizza proprio per
evitare questo tipo di problemi. Tuttavia, anche Excite spesso
restituisce pagine non rilevanti. La causa è un altro trucco
degli spammer. Costoro inseriscono le parole chiave "ingannatrici"
nel testo oltre che nei meta tag, ma esse sono egualmente invisibili
perché scritte nel medesimo colore della pagina. L'unico
modo per "portarle alla luce" è selezionare con
il mouse tutto il testo della pagina Web.
Cerchi una pagina,
ne trovi un'altra
Spesso lo spamming si spinge oltre. Si è scoperto infatti
che ogni motore di ricerca ha dei punti deboli peculiari, e tende
ad attribuire una maggiore rilevanza a pagine costruite in un
modo particolare: poco testo oppure molto, link testuali oppure
grafici, e perfino il rapporto aritmetico fra numero di parole
chiave e numero complessivo di parole contenute in una pagina.
Ciascun motore ha dunque la sua "pagina preferita",
che differisce dalla pagina preferita da tutti gli altri. Per
evitare di realizzare tanti siti quanti sono i motori di ricerca,
e tenuto conto che non sempre la pagina ideale risulta visivamente
accettabile, gli spammer utilizzano il comando Html <refresh>
(aggiorna). Il comando <refresh> fa sì che quando
la pagina viene letta da un browser, immediatamente ne venga caricata
un'altra, senza che l'originale possa essere visto dal navigatore.
Così, non appena l'utente del motore di ricerca fa clic
su uno dei link nella videata dei risultati della ricerca, se
la pagina relativa contiene un meta tag <refresh>, verrà
visualizzata un'altra pagina. In questo modo, per lo spammer è
sufficiente creare una pagina "fantasma" ad hoc (in
gergo definita "redirect page" o "jump page")
per ciascuno dei principali motori di ricerca, mentre il sito
cui queste "puntano" rimane invariato.
Contro i motori anche pixel fantasma
I motori di ricerca hanno in parte reagito agli abusi degli spammer.
Tutti penalizzano le pagine artificiosamente sovraccariche di
parole chiave, sia nel testo sia nei meta tag. Addirittura, Infoseek
non indicizza le pagine contenenti il comando <refresh>.
Tuttavia, le tecniche di spamming si sono raffinate di conseguenza,
e nuovi trucchi vengono escogitati per eludere le contromisure
dei motori. Il più subdolo dei trabocchetti è forse
quello denominato "pixel fantasma", che consiste nell'inserire
nelle pagine Web un'immagine delle dimensioni di un pixel e del
colore uguale allo sfondo, dunque di fatto invisibile. Quest'immagine
serve a riempire il campo <img alt> con decine e decine
di parole, anziché utilizzarlo correttamente inserendovi
la descrizione dell'immagine.
Quando i motori abboccano
Ecco i meta tag più usati, anche scorrettamente, per fare
rintracciare le proprie pagine dai motori.
<TITLE>
Si usa per specificare un titolo per la pagina in questione.
<DESCRIPTION>
Permette di includere, nascosto, un sommario che descrive il contenuto
della pagina o del sito cui essa appartiene.
<KEYWORDS>
Consente di inserire una serie di parole chiave rappresentative
del contenuto della pagina o del sito cui essa appartiene.
<REFRESH>
Indica al browser di caricare automaticamente un'altra pagina
senza che tale passaggio sia notato dal navigatore. Al limite
dello spamming.
|